DevelopersIO 2024 OSAKAに「データ品質管理の第一歩」というタイトルで登壇しました #devio2024

DevelopersIO 2024 OSAKAに「データ品質管理の第一歩」というタイトルで登壇しました #devio2024

ガイドブックを中心にデータ品質管理のプロセスや枠組みについて学びました。
Clock Icon2024.08.02

データ事業本部 インテグレーション部 機械学習チームの鈴木です。

「データ品質管理の第一歩」というタイトルでDevelopersIO 2024 OSAKAに登壇しましたので、資料を公開します。

https://classmethod.connpass.com/event/322915/

登壇資料

以下のスライドになります。

ガイドブックは、以下の資料を参照しました。

ポイント

1. データ品質管理プロセスについて

データ提供者が実施するデータ品質管理プロセスについてご紹介しました。

スライド20

2. データ品質特性について

ISO/IEC 25012の15の特性についてご紹介しました。

『データ連携基盤を通して提供されるデータの品質管理ガイドブック』では、これらの特性を基礎的品質特性と付加的品質特性に分けて、おのおのの評価方法が紹介されていたため、言及しました。

スライド17

基礎的品質特性はバリデーションがどれだけできているかを確認する、付加的品質特性は対応するメタデータの網羅性を確認する、と具体的な評価方法が理解できました。

3. データ品質管理を実現するためのツールについて

以下を紹介しました。

  • dbt
  • Amazon DataZone
  • AWS Glue Data Quality
  • Informatica CDGC

特にDataZoneはGlue Data Qualityなどのデータ品質を取り込めるようになっており、ますますデータカタログとしても機能を増やしています。

https://aws.amazon.com/jp/blogs/big-data/amazon-datazone-now-integrates-with-aws-glue-data-quality-and-external-data-quality-solutions/

また、Informatica CDGCについてもご紹介しました。こちらの製品については、DevelopersIO 2024でメンバーがご紹介していますので、興味があればご確認ください。

https://dev.classmethod.jp/articles/informatica-cdgc-developersio-2024/

最後に

ガイドブックを中心にデータ品質管理のプロセスや枠組みについて学んだ内容のほか、直近でどんどんアップデートされているデータカタログ製品・データ品質向けツールをご紹介しました。

クラウドサービスなど触っているとついつい具体的なサービスの使い方を話してしまいがちですが、改めてデータ品質の特性や、評価プロセスについて学べました。

これからデータ品質管理を行う方はもちろん、データ提供者になる方はぜひ一読ください。

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.